DAY 29 Amazon Bedrock 模型評估

2025 iThome 鐵人賽

DAY 29

自我挑戰組

找工作期間不要讓自己太廢系列第 29 篇

17th鐵人賽

deku

2025-10-13 20:30:42

225 瀏覽

分享至

Amazon Bedrock - Automatic Evaluation

可自動化評估模型
可以使用自備的prompt dataset或內建(built-in)的prompt dataset
也就準備benchmark questions與benchmark answers，將問題輸入至要評估的model，再將model生成的答案與benchmark answer一同輸入至judge model(GenAI)問這兩個答案是否相似，最後output出評估分數
模型評分是透過各種統計方法計算(BERTScore、F1...)

benchmark dataset

為評估語言模型性能而特別設計的資料集
可以評估model準確性、速度與效率、可擴展性
ex: 偵測偏見或潛在歧視、企業專屬資料集

Amazon Bedrock - Human Evaluation

選擇員工或Subject-Matter Expert(SME)
評估方法可能有按讚、排名等
可從built-in任務類型(與Automatic Evaluation相同)中選擇，或新增自訂任務

Amazon Bedrock - 自動化評估FM的指標

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
用於評估摘要、總結和機器翻譯系統的品質
ROUGE-N:測量reference與生成文本之間match的N-gram數量，N-gram表示match到的文字數量
ROUGE-L:測量reference與生成文本之間的最長共同子序列，ex 機器翻譯系統
BLEU(Bilingual Evaluation Understudy)
用於評估生成文本的品質，特別適用於翻譯
同時考慮precision並過度簡短的輸出分數會比較低
BERTScore
用於衡量生成文本的語義相似度
使用pre-trained BERT比較兩段文本的語義embedding，並計算它們的cos相似度
Perplexity
衡量模型對下一個token的預測能力，數值越低代表模型表現越好

ROUGE和BLEU是單純地用"字"是否一樣，BERTScore是用"語義"相似度
當使用者輸入至GenAI時，GenAI透過以上ROUGE、BLEU、BERTScore進行評估，經統整後再回feedback回模型進行retrain

評估模型的商業指標

User Satisfaction:收集使用者回饋並評估其對模型回應的滿意程度
ARPU(Average Revenue Per User):衡量GenAI app從每位使用者身上賺取的平均收益
Cross-Domain Performance:測量模型在不同領域任務中的表現能力
Conversion Rate:評估模型在產生期望結果(如購買行為)上的表現
Efficiency:評估模型在計算、資源使用等方面的效率

在Bedrock的evaluations中，分為automatic與human
在automatic的部分又分為Programmatic與Model as a judge
Programmatic:僅使用模型本身與您選擇的評估指標來測量其效能
Model as a judge:利用一個預先訓練好的模型，依據您設定的評估指標，自動評估目標模型的回應品質

在Bedrock的evaluations中，分為automatic與human

在automatic的部分又分為
Programmatic:僅使用模型本身與選擇的評估指標來測量其效能
Model as a judge:利用一個預先訓練好的模型，依據設定的評估指標，自動評估目標模型的回應品質(用model去judge model )

human的部分又分為
AWS Managed work team:使用AWS的專業工作團隊，評估最多兩個模型的回應
Bring your own work team:自備的工作團隊，評估最多兩個模型的回應